发现更大的新万博全站APP下载世界
 找回密码
 注册
搜索
发新帖
good7758,目前在找工作,北京有新万博全站APP下载岗位的帮忙推荐下    

用robots屏蔽蜘蛛对js或CSS抓取有必要吗

本帖最后由 good7758 于 2014-7-24 16:48 编辑

通过网站日志发现,蜘蛛经常会抓取一些js、css文件,和大多数站长一样,我也曾经屏蔽过蜘蛛对这些文件的抓取,因为以前好像国平说过蜘蛛在某个网站的停留时间是有限的,这样可以节省资源,今天看到谷歌官方对这个问题进行了回应。

个人猜想搜索引擎除了通过js或css来了解内容外,还可以检测你是否通过这些来作弊。
我个人认为小型网站没有必要,大网站如果蜘蛛抓取的特别多的话,应该考虑屏蔽。
大家认为有必要对css或者js屏蔽吗?


引用国平的一段话:
至于“解析java文件”,google 爬虫也会去解析java文件的。这是一个像HTTrack这样的通用爬虫都可以做到的事情。可能很多人还不知道,google会去试图解析javascript代码。如果你的页面上放很多javascript代码,就会使爬虫的停留时间增加,进而影响爬虫效率。这也可以算是为什么要把javascript代码外调的另一个原因。

还有,有些javascript代码里面的URL,google爬虫是可以收录的,原因不明。这样做可能是因为有些内容很好的网站,很多链接就是喜欢用javascript来做的缘故吧。但是不代表你的链接可以用javascript来做。
  地址:http://www.semyj.com/archives/123
发表于 2014-7-24 16:43:09 |只看大图
回复 收藏
浅唱孤寂,请到个人资料页面设置个人签名    

坐等大神正解
发表于 2014-7-24 23:38:25
回复 收藏
清雅的微笑,请到个人资料页面设置个人签名    

我们的网站也有很多蜘蛛抓取css文件之类的
发表于 2014-7-25 09:30:03
回复 收藏
johnnyzong,请到个人资料页面设置个人签名    

之前是把所有js、css放到二级域名下,然后配置该二级域名的robots.txt屏蔽蜘蛛爬取,不过尝试下来,发现确实能减少蜘蛛的一些不必要爬取,但随之页面快照就有很多是样式不对的。
发表于 2014-8-8 18:09:07
回复 收藏
汤板唦,Google 新万博全站APP下载    

这类问题我觉得都属于“矫枉过正”,确实蜘蛛的爬行是有预算的,但是任何一个搜索引擎都不至于笨到无法分辨网页文件和.js这类文件。

不建议放太多.js更多是从页面载入速度来考虑,把精力放在如何加快载入速度,和放在考虑要不要block .js文件,显然前者划算太多。
发表于 2014-8-9 21:57:21
回复 收藏
good7758,目前在找工作,北京有新万博全站APP下载岗位的帮忙推荐下    

汤板唦 发表于 2014-8-9 21:57
这类问题我觉得都属于“矫枉过正”,确实蜘蛛的爬行是有预算的,但是任何一个搜索引擎都不至于笨到无法分辨 ...

嗯,搜索引擎绝对能分辨js和普通网页。HTTrack都能,国平的这篇文章已经很清楚了http://www.semyj.com/archives/123
 楼主| 发表于 2014-8-10 17:02:13
回复 收藏
快速回复 返回顶部 返回列表